English

文字录入的好帮手

2001-02-26 来源:光明日报 肖辉 我有话说

OCR(Optical Character Recognition)文字识别软件是对光学字符的识别,它的工作过程是先通过扫描仪将印刷品中的文字以图像的形式输入到电脑中,再通过识别软件进行识别转换,变成可修改的文本。可以说,OCR的文字识别功能是人们利用扫描仪的又一重要方面。

在西方,做到这种通过扫描仪而完成的文字识别并不是一件难事,但由于汉字的多变性,想要让电脑通过OCR进行文字识别,可以说并不是一件容易的事。但经过多年的开发和研究,清华大学于1989年推出了国内第一套汉字OCR软件:清华文通TH-OCR1.0版。清华紫光为了更加方便用户对扫描仪的使用,于1999年免费对其全线的扫描仪产品配备了中文OCR的文字识别软件,使中文文字识别得到了更加广泛的普及。2000年,清华紫光控股清华文通后,使得这一方面的力量得到了进一步的加强,而与此同时,清华紫光又为紫光扫描仪配备了OCR千禧专业版,使紫光扫描仪的用户得到了更加方便的文字处理方法。

TH-OCR千禧专业版是目前唯一可以识别2万多汉字的文字识别系统,同时它还能够识别百种以上的字体,中英文混排的识别率也很高,各种字体综合识别率高达99.5%以上。TH-OCR千禧专业版可支持Windows环境和GB、BIG5、JIS与SHIFTJIS等多种内码,适合全球各个地区人的使用。

对表格的识别,也是用户在文字识别方面的一项重要要求,因此清华TH-OCR千禧专业版对其表格的功能也进行了完善。表格识别功能最早是由TH-OCR4.5版本推出的,每一次TH-OCR版本的提升,都会对表格识别功能进行提高。而千禧专业版采用了最新的表格处理模块,表格识别的正确率比TH-OCR7.5版又有了较大的提高,而且把识别的表格导出到WORD等编辑软件中也更加准确。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有